452 research outputs found

    Folded Recurrent Neural Networks for Future Video Prediction

    Full text link
    Future video prediction is an ill-posed Computer Vision problem that recently received much attention. Its main challenges are the high variability in video content, the propagation of errors through time, and the non-specificity of the future frames: given a sequence of past frames there is a continuous distribution of possible futures. This work introduces bijective Gated Recurrent Units, a double mapping between the input and output of a GRU layer. This allows for recurrent auto-encoders with state sharing between encoder and decoder, stratifying the sequence representation and helping to prevent capacity problems. We show how with this topology only the encoder or decoder needs to be applied for input encoding and prediction, respectively. This reduces the computational cost and avoids re-encoding the predictions when generating a sequence of frames, mitigating the propagation of errors. Furthermore, it is possible to remove layers from an already trained model, giving an insight to the role performed by each layer and making the model more explainable. We evaluate our approach on three video datasets, outperforming state of the art prediction results on MMNIST and UCF101, and obtaining competitive results on KTH with 2 and 3 times less memory usage and computational cost than the best scored approach.Comment: Submitted to European Conference on Computer Visio

    "Blurred Shape Model" : innovador reconeixement automàtic d'objectes

    Get PDF
    Una de les dificultats que trobem al reconeixement automàtic d'imatges prové de les alteracions que sofreixen els objectes en la seva representació. El fonament dels actuals sistemes intel·ligents consisteix a extraure informació rellevant de l'objecte, com podria ser el seu contorn, i aprendre que certes combinacions d'informació corresponen a objectes determinats. Investigadors del Centre de Visió per Computador, han proposat una nova metodologia per a la descripció d'objectes i el seu aprenentatge: el premiat descriptor "Blurred Shape Model" (BSM) considera la relació entre el nivell de difuminació del contorn i la facilitat per ser après com a un objecte determinat. Els usos d'aquesta nova metodologia van des de l'anàlisi de textos per ser processats, fins a la robòtica, passant per l'anàlisi de contingut d'imatges a internet.Una de las dificultades que encontramos en el reconocimiento automático de imágenes proviene de las alteraciones que sufren los objetos en su representación. El fundamento de los actuales sistemas inteligentes consiste en extraer información relevante del objeto, como podría ser su contorno, y aprender que ciertas combinaciones de información corresponden a objetos determinados. Investigadores del Centre de Visió per Computador han propuesto una nueva metodología para la descripción de objetos y su aprendizaje: el premiado descriptor "Blurred Shape Model" (BSM) considera la relación entre el nivel de difuminación del contorno y la facilidad para ser aprendido como un objeto determinado. Los usos de esta nueva metodología van desde el análisis de textos para ser procesados, hasta la robótica, pasando por el análisis de contenido de imágenes en internet

    LSTA: Long Short-Term Attention for Egocentric Action Recognition

    Get PDF
    Egocentric activity recognition is one of the most challenging tasks in video analysis. It requires a fine-grained discrimination of small objects and their manipulation. While some methods base on strong supervision and attention mechanisms, they are either annotation consuming or do not take spatio-temporal patterns into account. In this paper we propose LSTA as a mechanism to focus on features from spatial relevant parts while attention is being tracked smoothly across the video sequence. We demonstrate the effectiveness of LSTA on egocentric activity recognition with an end-to-end trainable two-stream architecture, achieving state of the art performance on four standard benchmarks.Comment: Accepted to CVPR 201

    A real-time human-robot interaction system based on gestures for assistive scenarios

    Get PDF
    Natural and intuitive human interaction with robotic systems is a key point to develop robots assisting people in an easy and effective way. In this paper, a Human Robot Interaction (HRI) system able to recognize gestures usually employed in human non-verbal communication is introduced, and an in-depth study of its usability is performed. The system deals with dynamic gestures such as waving or nodding which are recognized using a Dynamic Time Warping approach based on gesture specific features computed from depth maps. A static gesture consisting in pointing at an object is also recognized. The pointed location is then estimated in order to detect candidate objects the user may refer to. When the pointed object is unclear for the robot, a disambiguation procedure by means of either a verbal or gestural dialogue is performed. This skill would lead to the robot picking an object in behalf of the user, which could present difficulties to do it by itself. The overall system — which is composed by a NAO and Wifibot robots, a KinectTM v2 sensor and two laptops — is firstly evaluated in a structured lab setup. Then, a broad set of user tests has been completed, which allows to assess correct performance in terms of recognition rates, easiness of use and response times.Postprint (author's final draft

    Métodos automáticos para el análisis de la expresión oral y gestual en proyectos fin de carrera

    Get PDF
    La comunicación y expresión oral es una competencia de especial relevancia en el EEES. No obstante, en muchas enseñanzas superiores la puesta en práctica de esta competencia ha sido relegada principalmente a la presentación de proyectos fin de carrera. Dentro de un proyecto de innovación docente, se ha desarrollado una herramienta informática para la extracción de información objetiva para el análisis de la expresión oral y gestual de los alumnos. El objetivo es dar un “feedback” a los estudiantes que les permita mejorar la calidad de sus presentaciones.El prototipo inicial que se presenta en este trabajo permite extraer de forma automática información audio-visual y analizarla mediante técnicas de aprendizaje. El sistema ha sido aplicado a 15 proyectos fin de carrera y 15 exposiciones dentro de una asignatura de cuarto curso. Los resultados obtenidos muestran la viabilidad del sistema para sugerir factores que ayuden tanto en el éxito de la comunicación así como en los criterios de evaluación.Peer Reviewe
    corecore